The monograph summarizes and analyzes the current state of development of computer and mathematical simulation and modeling, the automation of management processes, the use of information technologies in education, the design of information systems and software complexes, the development of computer telecommunication networks and technologies most areas that are united by the term Industry 4.0
translated by 谷歌翻译
与语音界面进行互动以查询问答(QA)系统越来越流行。通常,质量保证系统依靠通道检索来选择候选上下文并阅读理解以提取最终答案。尽管人们一直在关注质量检查系统的阅读理解部分,以防止自动语音识别(ASR)模型引入的错误,但段落检索部分仍未开发。但是,此类错误会影响通过检索的性能,从而导致端到端的性能较低。为了解决这一差距,我们通过合成的ASR噪声增强了两个现有的大规模通道排名和开放域QA数据集,并研究了ASR噪声的问题,并研究词汇和密度捕捞器的鲁棒性。此外,我们研究了不同领域的数据增强技术的普遍性。每个域都是不同的语言方言或口音。最后,我们创建了一个新数据集,其中包含人类用户提出的问题,并使用其转录表明,在处理自然ASR噪声而不是合成ASR噪声时,检索性能会进一步降低。
translated by 谷歌翻译
神经风格转移是一种强大的计算机视觉技术,可以将一个图像的艺术“样式”纳入另一个图像的“内容”。该方法背后的基本理论取决于以下假设:图像的样式由其特征的革兰氏矩阵表示,该矩阵通常是从预先训练的卷积神经网络(例如VGG-19)中提取的。这个想法并不能直接扩展到时间序列风格化,因为二维图像的样式概念与一维时间序列的样式概念不类似。在这项工作中,提出了一种新颖的时间序列样式转移的表述,以实现合成数据的生成和增强。我们介绍了时间序列的程式化功能的概念,该功能与时间序列现实主义属性直接相关,并提出了一种新型的风格化算法,称为STYLETIME,该算法使用明确的功能提取技术来结合一个时间序列的基础内容(趋势)带有另一个样式(分销属性)。此外,我们讨论了评估指标,并将我们的工作与现有的最新时间序列生成和增强方案进行比较。为了验证我们的方法的有效性,我们使用风格化的合成数据作为数据增强的手段,以提高几个预测任务上经常性神经网络模型的性能。
translated by 谷歌翻译
隐式神经表示(INRS)最近已成为一种强大的工具,可提供准确和分辨率的数据编码。它们作为一般近似器的稳健性已在各种数据源中显示,并在图像,声音和3D场景表示方面进行了应用。但是,很少有人注意利用这些体系结构来代表和分析时间序列数据。在本文中,我们使用INRS分析了时间序列的表示,从重建精度和训练收敛速度进行比较不同的激活函数。我们展示了如何利用这些网络的时间序列的插补,并在单变量和多变量数据上进行了应用。最后,我们提出了一个超网络架构,该体系结构利用INR来学习整个时间序列数据集的压缩潜在表示。我们引入了基于FFT的损失来指导培训,以便在时间序列中保留所有频率。我们证明该网络可用于将时间序列编码为INR,并且可以将它们的嵌入方式内插以从现有时间序列中生成新的时间序列。我们通过将其用于数据增强来评估我们的生成方法,并表明它与当前的最新方法相对于时间序列的最新方法具有竞争力。
translated by 谷歌翻译
基于强大的预训练语言模型(PLM)的密集检索方法(DR)方法取得了重大进步,并已成为现代开放域问答系统的关键组成部分。但是,他们需要大量的手动注释才能进行竞争性,这是不可行的。为了解决这个问题,越来越多的研究作品最近着重于在低资源场景下改善DR绩效。这些作品在培训所需的资源和采用各种技术的资源方面有所不同。了解这种差异对于在特定的低资源场景下选择正确的技术至关重要。为了促进这种理解,我们提供了针对低资源DR的主流技术的彻底结构化概述。根据他们所需的资源,我们将技术分为三个主要类别:(1)仅需要文档; (2)需要文件和问题; (3)需要文档和提问对。对于每种技术,我们都会介绍其一般形式算法,突出显示开放的问题和利弊。概述了有希望的方向以供将来的研究。
translated by 谷歌翻译
电子商务提供丰富的多模式数据,几乎没有在实践中杠杆。此数据的一个方面是用于搜索和推荐的类别树。然而,在实践中,在用户会话期间,在给定类别的文本和视觉表示之间通常存在不匹配。出现问题的激励,我们介绍了电子商务类别到图像检索的任务,并提出了任务的模型,剪辑ITA。该模型利用来自多个模式(文本,视觉和属性模态)的信息来创建产品表示。我们探索如何从多种模式(文本,视觉和属性模态)中添加信息影响模型的性能。特别是,我们观察到剪辑ITA显着优于一种可比模型,该模型仅利用可视模式和利用视觉和属性模态的可比模型。
translated by 谷歌翻译
侧重于查询的摘要(QFS)需要生成使用一组相关文档的查询给出文本摘要。但是,在实践中,此类相关文件不易获得,但应首先从文档收集中检索。因此,我们展示了如何扩展此任务以使其更加逼真。因此,任务设置也类似于开放式域问题应答任务的设置,其中答案是顶部检索到的文档的摘要。要解决此扩展任务,我们将通过文本生成组合通过文本生成来产生给定输入查询的检索段落的摘要。我们展示了第一个对拟议任务的评估结果,并表明一些样本足以通过检索的通道进行微调的大型生成模型。
translated by 谷歌翻译
多代理市场仿真通常用于为下游机器学习或加强学习任务创建环境,例如在部署它们以实时交易之前培训或测试交易策略。在电子交易市场中,只有多个市场参与者的互动导致的价格或体积时间序列通常是直接可观察到的。因此,需要校准多代理市场环境,以使模拟代理的相互作用与历史相互作用导致的时间序列 - 这使得解决高度复杂的大规模优化问题。在本文中,我们提出了一种简单而有效的框架,可以从历史时间序列观测校准多代理市场模拟器参数。首先,我们考虑一个新颖的资格概念,以绕过潜在的不可识别性问题。其次,我们通过Bonferroni校正概括了两个样本的Kolmogorov-Smirnov(K-S)测试,以测试两个高维时间序列分布之间的相似性,这在时间序列样本集之间提供了一个简单但有效的距离度量。第三,我们建议使用贝叶斯优化(BO)和信任区域BO(Turbo)来最小化上述距离度量。最后,我们展示了使用数值实验的框架的效率。
translated by 谷歌翻译
实体消除歧义(ED)是实体链接(EL)的最后一步,当候选实体根据它们出现的上下文重新登录。所有数据集,用于培训和评估EL的模型,包括方便样本,如新闻文章和推文,将实体分布的现有概率偏置传播到更频繁发生的实体。前面表明,在这种数据集上的EL系统的性能高估,因为可以通过仅仅在学习之前获得更高的精度分数。为了提供更具足够的评估基准,我们介绍了ShadowLink数据集,其中包括16K短文本代码段,其中包含实体提出。我们评估并报告在Shadowlink基准上的流行EL系统的表现。结果表明,在评估中所有EL系统的越来越少的常见实体之间的准确性差异相当差异,证明了现有概率偏差和实体的效果。
translated by 谷歌翻译